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Voice control systems are used in diverse 
technical fields. In this case, the spoken words 
are firstly detected, usually by one or more 
microphones (M1 , M2) and then fed to a speech 
recognition system (REC), which determines 
from the detected signals those words having the 
highest probability. The robustness with respect 
to acoustic interfering influences can be 
increased by the microphone being fastened or 
held directly in front of the speaker's mouth. The 
invention enables voice control even from a 
relatively large distance by virtue of the fact that 
interfering background noises are spatially 
separated by the use of directional microphones 
or microphone arrays (M1 , M2). In this case, the 
directional characteristic is adapted by virtue of 
the fact that means for detecting the whereabouts 
of the user (IR1 , VR, CIR) are provided. One or 
more infrared motion detectors are preferably 
used for this purpose. 
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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

@ Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen fur die Sprachsteuerung 

(57) Sprachsteuerungssysteme finden in einer Vielfalt von 
technischen Gebieten Anwendung. Die gesprochenen 
Worte werden hierbei zunachst detektiert, ublicherweise 
durch ein oder mehrere Mikrofone (M1, M2), und dann ei- 
nem Spracherkennungssystem {REC) zugefuhrt, welches 
aus den . detektierten Signalen diejenigen Worte be- 
stimmt, welche die hochste Wahrscheinlichkeit aufwei- 
sen. Die Robustheit gegen.akustische Storeinflusse kann 
erhoht werden, indem das Mikrofon direkt vor dem Mund 
des Sprechers befestigt oder gehalten wird. Erfindungs- 
gemaft wird eine Sprachsteuerung auch aus groRerer 
Feme ermoglicht, indem eine raumliche Trennung von 
storenden Hintergrundgerauschen durch eine Verwen- 
dung von Richtmikrofonen bzw. Mikrofon arrays (M1, M2) 
erfolgt. Eine Anpassung der Richtcharakteristik erfolgt 
hierbei, indem Mittel zur Detektion des Aufenthaltsortes 
des Benutzers (IR1, VR, CIR) vorgesehen sind. Vorzugs- 
weise werden hierfur ein oder mehrere Inf rarot-Bewe- 
■ gungsdetektoren verwendet. 
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Beschreibung 



Die Erfindung betrifft eine Vorrichtung zur Anpassung 
der Richtcharakteristik von Mikrofonen flir die Sprachsteue- 
rung, die insbesondere zur Steuerung von Geraten der Un- 
terhaltungselektronik genutzt werden kann. 

Stand der Technik 

Sprachsteuerungssysteme finden in einer Vielzahi von 
technischen Gebieten Anwendung. Die gesprochenen Worte 
werden hierbei zunachst als Schallsignale detektiert, iibli- 
cherweise durch ein oder mehrere^Mikrofone, und dann ei- 
nem Spracherkennungssystem zugefiihrt. Die Spracherken- 
nung basiert hierbei iiblicherweise auf einem Akustik- und 
einem Sprachmodell. Das akustische Modell nutzt eine 
groBe Anzahl von Sprachrnustem, wobei mathernatische Al- 
gorithmen dazu verwendet werden, die akustisch am besten 
passenden Worte zu einem gesprochenen Wort anzugeben. 
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zur Umwandlung von Sprachbefehlen in elektrische Signale 
und einer Spracherkennungseinheit zur Umwandlung dieser 
elektrischen Signale in Bedienungsbefehle sowie Mitteln 
zur Detektion des Aufenthaltsortes des Benutzers, die ein 
Signal zur Verfugung stellen, welches zur Anpassung der 
Richtcharakteristik des Mikrofons oder der Mikrofone an 
den Aufenthaltsort des Benutzers verwendet werden kann. 

Die Verwendung eines separaten Detektionsmittels hat 
den Vorteil, daB eine schnelle Erfassung des Aufenthaltsor- 
tes des Benutzers stets auch ein Detektieren und Erkennen 
der ersten Silben bzw. Worter eines Kommandos ermog- 
licht. Hierfiir ist grundsatzlich jedes ausreichend schnelle 
Detektionsmittel geeignet. 

Vorteilhaft weisen die Mittel zur Detektion des Aufent- 
haltsortes des Benutzers ein oder mehrere Infrarot-Bewe- 
gungsdetektoren auf, 

Ebenso kann es vorteilhaft sein, wenn die Mittel zur De- 
tektion des Aufenthaltsortes des Benutzers zusatzlich zu den 
Infrarot-Bewegungsdetektoren oder start der Infrarot-Bewe- 



Das Sprachmodell wiederum basiert. auf einer Analyse, bei. 20 gungsdetektoren elektrische Kontakte aufweisen. 



der anhand von einer Vielzahi von Dokumentproben festge- 
stellt wird, in welchem Kontext und wie haufig gewisse 
Worter normalerweise verwendet werden. Mit solchen 
Spracherkennungssystemen ist nicht. nur das Erkennen ein- 
zelner Worter, sondern auch von MieBend gesprochenen Sat- 25 
zen mit hohen Erkennungsraten moglich. Die Erkennungs- 
rate sinkt jedoch drastisch, wenn nicht vernachlassigbare 
Hintergrundgerausche vorliegen. 

Die Robustheit gegen solche akustische Storeinflusse 
kann auf verschiedene Weisen erhoht werden. So wird bei 30 
Diktiersystemen fur Computer ein Mikrofon an einem 
Kopfhorergestell direkt vor dem Mund des Spree hers befe- 
stigt. Bei diesen Systemen kann nur durch die unmittelbare 
Nahe zum Mund ein sehr konstantes Signal und damit eine 
zum Teil beachtliche Erkennungsrate erreicht werden. 35 
Ebenso ist es bekannt, ein Fernsehgerat zu steuern, indem 
die Bedienungsbefehle in das in einer Fernbedienung inte- 
grierte Mikrofon gesprochen werden. Auch hiermuB jedoch 
die Fernbedienung unmittelbar vor den Mund des Benutzers 
gehalten werden. 40 

Erfindung 

Der Erfindung liegt. die Aufgabe zugrunde, eine Vorrich- 
tung zur Sprachsteuerung anzugeben, welche eine ausrei- 45 
chende Storfestigkeit auch bei Spracheingabe aus groBerer 
Feme ermoglicht. Diese Aufgabe wird durch die in An- 
spruch 1 angegebene Vorrichtung gelost. 

Um eine Sprachsteuerung auch aus groBerer Feme zu er- 
mog lichen, muB das Sprachsignal von storenden Hinter- 50 
grundsignalen getrennt. werden. Dies kann durch eine raum- 
liche Trennung unter Verwendung von Richtmikrofonen 
bzw. Mikrofonarrays aus zwei oder rnehr Mikrofonen erfol- 
gen. Soil der Benutzer sich wahrend der Spracheingabe je- 
doch frei im Raum bewegen konnen statt auf einen begrenz- 55 
ten Bereich, z. B. mi trig vor dem Gerat, beschrankt zu sein, 
so rnuB eine Anpassung der Richtcharakteristik dieser Mi- 
krofonarrays erfolgen. Fur diese Anpassung konnten die 
Mikrofonsignale selber verwendet werden. In diesem Fall 
muB zunachst detektiert werden, daB ein entsprechendes Si- 60 
gnal vorliegt, dann kann das Mikrofonarray entsprechend 
adapt iert. werden, und erst im AnschluB kann eine zufrie- 
denstellende Spracherkennung beginnen. Dieser Verfah- 
rensablauf kann jedoch mehrere Sekunden benotigen und 



Vorzugsweise kann auch ein Richtmikrofon vorgesehen 
sein, welches auf den Aufenthaltsort des Benutzers ausge- 
richtet wird. 

Besonders vorteilhaft ist die erfindungsgemaBe Vorrich- 
tung in ein Unterhaltungselektronikgerat integriert. 

Zeichnung 

Anhand der Zeichnung wird ein Ausfuhrungsbeispiel der 
Erfindung beschrieben. 

Diese zeigt eine erfindungsgemaBe Anordnung zur 
Sprachsteuerung. 



Ausfuhrungsbeispiele 

In Fig. I ist schematisch eine erfindungsgemaBe Vorrich- 
tung dargestelit, wie sie z. B. in einem Fernsehgerat, Video- 
rekorder oder DVD-Spieler integriert werden kann. Um die 
Position eines Benutzers zu detektieren, bevor dieser einen 
Benutzungsbefehl gegeben hat, ist ein Infrarot-Positionsde- 
tektor vorgesehen. Dieser beruht darauf, daB die Intensitiit 
der von einem Gegenstand oder einer Person abgestrahlten 
Infrarotst.rahlung von der jeweiligen Temperatur abhangt. 
Der Infrarot-Positionsdetektor umfaBt. eine Vielzahi von 
dem Fachmann bekannten und daher nicht naher beschrie- 
benen In frarot.de tek tor en IR, da mit einem einzelnen Detek- 
tor lediglich die Anwesenheit oder Bewegung eines Benut- 
zers, nicht. jedoch eine Positionsbestimmung erfolgen kann. 
Je nach Anforderungen an die Auflosung kann es sich um 
mehrere einzelne Detektoren oder ein Array, wie es auch fur 
Infrarot- bzw. Warmebildkameras benutzt wird, handein. 
Durch eine nicht. dargest.ellte Linse oder Linsenkombination 
kann hierbei der Beobachtungsbereich beeinfluBt werden. 
Die aus der Infrarotstrahlung durch die Infrarotdetektoren 
gewonnenen elektrischen Signale werden dann durch einen 
Verstarker V3 verstarkt und gelangen zu einer Kontrollein- 
heit CIR, die aus den detektierten Signalen den Aufenthalts- 
ort und gegebenenfalls auch die Bewegungsrichtung des Be- 
nutzers ermittelt. 

Zur Detektion der Sprachsignale ist ein Mikrofonarray 
bestehend aus zwei Mikrofonen Ml und M2 vorgesehen. 
Diese setzen die detektierten Schallsignale in elektrische Si- 
gnale um, die durch Verstarker VI und V2 zunachst ver- 
starkt und dann einer Signaiverarbeitungseinheit PROC zu- 



fuhrt damit dazu, daB die ersten Silben oder sogar Worter 65 gefiihrt werden. Diese berucksichtigt. nun den jeweiligen 

nicht erkannt werden konnen. Aufenthaltsort des Benutzers durch eine unterschiedliche 

Im Pnnzip bestehl. die erfindungsgemaBe Vorrichtung zur Skalierung bzw. Verarbeitung der detektierten Schallsi- 

Sprachfernsteuerung aus einem oder mehreren Mikrofonen gnale. Das so bearbeitete Signal wird dann einer Spracher- 
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kennungseinheit REC zugeruhrt, die die elektrischen Si- 
gnale in Worte umwandelt. Die diesen Worten entsprechen- 
den Befehle werden dann schlieBlich einem S ystemmanager 
CSYS zur Steuerung des Systems zugefuhrt. 

Bei einem aus zwei Mikrofonen bestehenden Mikrofonar- 5 
ray konnen die beiden Mikrofone vorteilhaft auf der linken 
und rechten Seite des Gehauses des jeweiligen Gerates un- 
tergebracht werden. Das Mikrofonarray ist jedoch keines- 
falls auf zwei Mikrofone beschrankt, sondern kann auch 
mehr als zwei Mikrofone aufweisen. Ebenso kann auch ein 10 
Richtmikrofon mit einer ausgepragten Richtcharakteristik 
verwendet werden, welches dann in Abhangigkeit von dem 
detektierten Aufenthaltsort des Benutzers verdreht wird. 

Vorteilhafterweise kann in einer Grundeinstellung eine 
Ausrichtung in Richtung des Eingangbereiches des Raumes, 15 
in dem sich das Gerat befindet, erfolgen. Damit ist das Gerat 
sofort einsatzbereit, sobald ein Benutzer den Raum betritt. 

Sollten mehrere mogliche Benutzer detektiert werden, so 
sind verschiedene Verfahrensweisen denkbar. Beispiels- 
weise kann die Richtcharakteristik stets an den zuerst detek- 20 
tierten Benutzer. angepaBt werden, so daB das Mikrofonarray 
diesem gewissermaBen folgt. Ebenso kann das Mikrofonar- 
ray auch demjenigen Benutzer folgen, der zuerst eine 
Spracheingabe vorgenommen hat, Weiterhin kann auch ein 
regelmaBiges Umschalten der Ausrichtung zwischen den 25 
verschiedenen moglichen Benutzern erfolgen. SchlieBlich 
kann eine Auswertung der GroBe der detektierten Objekte 
erfolgen, um so zu verhindern, daB eine Ausrichtung auf 
Haustiere des Benutzers durchgefuhrt wird. 

Weiterhin ist es denkbar, den Benutzer beim Betreten des 30 
Raumes start durch den Infrarotdektor durch Kontakte an 
der Tur oder an den Lichtschaltern zu defektieren. 

SchlieBlich ist auch eine ^Combination solcher Kontakte 
mit. einer Infrarotdetektion moglich. 

GemaB einer weiteren Ausfiihrungsform konnen bei aus- 35 
geschalteten Geraten die Detekti on s mittei standig aktiviert 
sein, Erfolgt dann eine Detektion eines Benutzers, so wird 
zunachst. lediglich die Richtcharakteristik der Mikrofone an- 
gepaBt und die Spracherkennungseinheit angeschaltet. Er- 
folgt. dann ein Benutzungsbefehl, insbesondere ein Koni- 40 
inando zum Anschalten des zu steuernden Gerats, so werden 
auch die restlichen Funktionsgruppen des Gerates aktiviert. 
Auf diese Weise ist. das Gerat. standig benutzungsbereit bei 
lediglich geringem Energiebedarf des Gerats. 

Die Errlndung kann zur Sprachfernbedienung von ver- 45 
schiedenst.en Geraten der Unterhaltungselektronik, wie z. B. 
von TV-Gerat.en, Videorecordern, DVD-Spielern, Satelli- 
tenempfangern, TV- Video- Kombinationen, Audiogeraten 
oder kornpletten Audiosystemen, aber ebenso von Personal- 
comput.ern oder von Haushaltsgeraten eingesetzt werden. 50 

Patentanspriiche 

1. Vorrichtung zur Sprachfemsteuerung, mit einem 
oder mehreren Mikrofonen (Ml, M2) zur Umwand- 55 
lung von Sprachbefehlen in elektrische Signale und mit 
einer Spracherkennungseinheit (REC) zur Umwand- 
lung dieser elektrischen Signale in Bedienungsbefehle, 
dadurch gekennzeichnet, daB Mittei zur Detektion 
des Aufenthaltsortes des Benutzers (TR, V3, CIR) vor- 60 

. gesehen sind, die ein Signal zur Verfugung stellen, wel- 
ches zur Anpassung der Richtcharakteristik des Mikro- 
fons oder der Mikrofone an den Aufenthaltsort des Be- 
nutzers verwendet werden kann. 

2. Vorrichtung nach Anspruch 1, dadurch gekenn- 65 
zeichnet, daB die Mittei zur Detektion des Aufenthalts- 
ortes des Benutzers ein oder mehrere Infrarot-Bewe- 
gungsdetektoren aufweisen. 
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3. Vorrichtung nach Anspruch 1 oder 2, dadurch ge- 
kennzeichnet, daB die Mittei zur Detektion des Aufent- 
haltsortes des Benutzers elektrische Kontakte aufwei- 
sen. 

4. Vorrichtung nach einem der vorhergehenden An- 
spriiche, dadurch gekennzeichnet, daB ein Richtmikro- 
fon vorgesehen ist, welches auf den Aufenthaltsort des 
Benutzers ausgerichtet wird. 

5. Unterhaltungselektronikgerat mit einer Vorrichtung 
nach einem der vorhergehenden Anspriiche. 
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